3 research outputs found

    Coevolução molecular em canais iônicos e neurotoxinas

    Get PDF
    Dissertação (mestrado)—Universidade de Brasília, Programa de Pós-Graduação em Biologia Molecular, 2016.A peçonha de escorpiões contém diversos tipos de neurotoxinas que podem interagir entre si para modular a função de canais iônicos¹. A ação desses polipeptídeos leva à ativação de canais de sódio e inibição de canais de potássio, causando um elevado influxo de sódio e a liberação de neurotransmissores, seguida por um bloqueio da excitabilidade celular². Apesar de possuírem estrutura 3D similar, as chamadas α- e β-toxinas de escorpião afetam canais iônicos de sódio dependentes de voltagem (NaV) por meio de mecanismos diferentes: as α-toxinas interagem com o sítio 3 no domínio sensor de voltagem IV (VSD-IV) e inibem o processo de inativação rápida do canal¹, enquanto as β-toxinas interagem com o sítio 4 no VSD-II e causam a hiperativação do canal por meio de um mecanismo de aprisionamento do sensor de voltagem³. Em um contexto evolutivo, espera-se que o sistema composto por esses dois tipos de toxinas e os seus alvos moleculares, os VSD de NaV, tenham sofrido um processo de coevolução molecular. Partindo do princípio de que seja possível detectar, através da análise de sequências primárias, sinais de coevolução molecular que determinem a seletividade e afinidade entre os pares toxina-VSD, foi possível propor um um modelo evolutivo de interação e seletividade entre α- e β-toxinas de escorpião e VSD-II e -IV de NaV, o qual representa o melhor conjunto possível de interações toxina-VSD. Para tanto, foi desenvolvido um algoritmo genético capaz de otimizar, baseado em um critério de energia e acoplamento, um dado sistema composto por dois conjuntos de posições de aminoácidos, obtidos de dois alinhamentos múltiplos de sequências (MSA) de proteínas. O algoritmo genético foi desenvolvido para encontrar a melhor forma de parear as sequências do MSA1 com as sequências do MSA2 de forma a minimizar a energia de interação total dos pares. O modelo otimizado de coevolução (MOC) apresentou dois grupos bem definidos, um formado por interações entre α-toxinas e VSD-IV e o outro composto por interações entre β-toxinas e VSD-II. Esse resultado indica que o algoritmo foi capaz de encontrar uma solução realista para o problema. O modelo obtido fornece informações importantes sobre quais interações entre resíduos definem as regras para as afinidade diferenciais entre β-toxinas e VSD-II, e α-toxinas e VSD-IV. Com isso, foi possível inferir um conjunto de resíduos que caracteriza a superfície funcional de cada grupo de toxinas. Os resultados obtidos são corroborados por resultados experimentais da literatura.Scorpion venoms contain several types of neurotoxins that might interact with each other, modulating the function of ion channels¹. The action of these polipeptides leads to the activation of sodium channels and inhibition of potassium channels, causing a high sodium influx and the liberation of neurotransmitters, followed by a blockage of cellular excitability². Regardless of their similar 3D structures, the so-called α- and β-scorpion toxins affect voltage-gated sodium channels (NaV) through very different mechanisms: α-toxins interact with the extracellular site 3 in the voltage sensor domain IV (VSD-IV) and inhibit the rapid channel inactivation process¹, while β-toxins interact with site 4 in VSD-II and cause channel hyperactivation through a voltage sensor trapping mechanism³. In an evolutionary context, it is expected that the system composed of this two types of gating modifier toxins plus the targeted NaV VSD will present some coevolution traces. Starting from the hypotheses that it is possible to detect, through sole primary sequence analysis, signals of molecular coevolution determining selectivity and specificity between pairs of interacting proteins, it was possible to propose an evolutionary model of interaction and selectivity between scorpion α- and β-toxins and NaV VSD-II and -IV, which represents the best possible arrangement of interacting pairs. To achieve that, a self-developed and implemented genetic algorithm that was able to optimize, based on an energy-coupling criterion, a given system composed of two sets of information channels coming from two different protein multiple sequence alignments (MSA) was used. Basically, the genetic algorithm was designed to find the best way of pairing the sequences coming from MSA1 with the sequences coming from MSA2 in order to minimize the overall interaction energy of the pairs. The optimized model presented two well-defined groups, one composed of α-toxins interacting with VSD-IV and the other composed of β-toxins interacting with VSDII. This result indicates that the model is probably accurate. Going one step further, we applied PCA to extract important information from the optimized model about the interacting residues in the two groups (β- toxins, VSD-II and α-toxins, VSD-IV). It was then possible to infer the set of residues responsible for the unique features observed in the two groups of toxins. The results obtained in this last step are in conformation with data coming from experimental assays

    Assessing the utility of mutual information stored in protein-protein interfaces to infer specific protein partners

    Get PDF
    Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, Programa de Pós-Graduação em Biologia Molecular, 2021.Proteínas são essenciais para diversos processos celulares. Assim, um dos objetivos centrais da Biologia é entender as relações entre sequência, estrutura e função dessas macromoléculas. Nesse contexto, as marcas deixadas pelo processo coevolutivo em sequências de proteínas parceiras são uma importante fonte de informação estrutural. De fato, as correlações estatísticas entre sítios de aminoácidos em sequências de proteínas são a base dos métodos mais modernos para a previsão de contatos inter- e intra-proteínas, predição de estrutura tridimensional, identificação de sítios funcionais e resíduos determinantes de especificidade, inferência de interações entre parálogos, entre outras aplicações. Em consonância com isso, o presente trabalho apresenta um conjunto de resultados teóricos sobre como proteínas parceiras específicas podem ser recuperadas com base apenas nas informações da sequência. No primeiro capítulo, é realizada uma decomposição da informação mútua (MI) presente nos complexos proteína-proteína, considerando a hipótese de que a MI em proteínas se origina de uma combinação de diferentes fontes: coevolutiva, evolutiva e estocástica. Foi observado que a interface contém, em média por contato, mais informações do que o restante do complexo protéico, resultado que se mantém quando se considera tanto a MI de Shannon quanto a de Tsallis como medida de informação. Essa observação levou à conclusão de que a interface contém o sinal de informação mais forte para distinguir o conjunto correto de proteínas parceiras em famílias de proteínas que interagem. Com base nisso, a utilidade de usar a MI armazenada em interfaces proteína-proteína para recuperar o conjunto correto de proteínas parceiras é avaliada no segundo capítulo. Um algoritmo genético (GA) foi desenvolvido para explorar o espaço de possíveis concatenações entre um par de famílias de proteínas que interagem usando a MI da interface como função objetivo. Usando o GA, a maximização da MI da interface foi realizada para 26 pares de famílias de proteínas que interagem e foi observado que concatenações otimizadas correspondem a soluções degeneradas com duas fontes de erro distintas, decorrentes de pareamentos errados entre (i) sequências similares e (ii) não similares. Quando os erros cometidos com sequências semelhantes foram desconsiderados, as soluções do tipo (i) apresentaram taxas de verdadeiros positivos (TP) de 70 % - muito acima das mesmas estimativas para soluções do tipo (ii). Esses resultados se mantêm quando as otimizações são feitas com base na MI de Tsallis. Essas descobertas levantam questões sobre os mecanismos por trás da coevolução de proteínas parceiras e ajudam a racionalizar os dados da literatura que mostram uma forte deterioração das taxas de TP com o aumento do número de sequência em abordagens baseadas em MI.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Proteins are essential for several cellular processes. Hence, one of the central objectives in Biology is to understand the relationships between sequence, structure and function of these macromolecules. In this context, marks left by the coevolutionary process in interacting protein sequences are an important source of structural information. In fact, statistical correlations between amino acid sites in protein sequences are at the basis of state-of-the-art methods for prediction of inter- and intra-protein contacts, template-free structure prediction, identification of functional sites and specificity determining residues, inference of interacting paralogs, among other applications. In line with that, the present work conveys a set of theoretical results on how specific protein partners can be recovered based on sequence information alone. In the first chapter, a decomposition of the mutual information (MI) present in protein-protein complexes is carried out, considering the hypothesis that MI in proteins is originated from a combination of coevolutive, evolutive and stochastic sources. It was observed that the interface contains on average, by contact, more information than the rest of the protein complex, a result that holds when considering both Shannon and Tsallis MI as a measure of information. This observation led to the conclusion that the interface contains the strongest information signal for distinguishing the correct set of protein partners in interacting protein families. Building on that, the utility of using MI encoded on protein-protein interfaces to recover the correct set of protein partners is assessed in the second chapter. A genetic algorithm (GA) was developed to explore the space of possible concatenations between a pair of interacting protein families using the interface MI as objective function. Using the GA, interface MI maximization was performed for 26 different pairs of interacting protein families and it was observed that optimized concatenations corresponded to degenerate solutions with two distinct error sources, arising from mismatches among (i) similar and (ii) non-similar sequences. When mistakes made among similar sequences were disregarded, type-(i) solutions were found to resolve correct pairings at best true positive (TP) rates of 70% - far above the very same estimates in type-(ii) solutions. These results hold when the optimizations are made based on Tsallis MI. These findings raise further questions about the mechanisms behind protein partners coevolution and help rationalize literature data showing a sharp deterioration of TP rates with increasing sequence number in MI-based approaches

    Um novo método baseado no modelo de Potts para detecção de intrusão em rede

    Get PDF
    Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.Sistemas de Detecção de Intrusão em Rede (NIDS, do inglês Network Intrusion Detec- tion Systems) desempenham um importante papel como ferramentas para identificação de potenciais ameaças a redes de computadores. No contexto de crescentes volumes de tráfego de internet em redes de computadores, NIDS baseados em fluxos constituem boas soluções para o monitoramento de tráfego em tempo real. Nos últimos anos, diferentes classificadores de tráfego baseados em fluxos foram propostos utilizando aprendizagem de máquina. Entretanto, algoritmos de aprendizagem de máquina possuem algumas lim- itações. Além de requerer grandes quantidades de exemplos categorizados, que podem ser difíceis de obter, a maioria desses algoritmos não consegue se adaptar bem a difer- entes domínios, i.e., após serem treinados em um conjunto de dados específico, não são facilmente generalizáveis para outros conjuntos de dados. Por fim, muitos dos modelos inferidos por esses algoritmos são não interpretáveis. Para contornar essas limitações, é proposto um novo classificador de fluxos, chamado Energy-based Flow Classifier (EFC). EFC é um classificador baseado em anomalias que utiliza estatística inversa para inferir um modelo estatístico utilizando apenas exemplos benignos. É mostrado que o EFC é ca- paz de realizar classificação de fluxos de forma precisa e é mais adaptável a novos domínios do que algoritmos clássicos baseados em aprendizagem de máquina. Dados os bons resul- tados obtidos considerando três conjuntos de dados diferentes (CIDDS-001, CICIDS17 e CICDDoS19), o EFC se mostra como um algoritmo promissor para classificação robusta de fluxos de rede.Network Intrusion Detection Systems (NIDS) play an important role as tools for identify- ing potential network threats. In the context of ever-increasing traffic volume on computer networks, flow-based NIDS arise as good solutions for real-time traffic classification. In recent years, different flow-based classifiers have been proposed using machine learning algorithms. Nevertheless, the classical machine learning algorithms have some limita- tions. For instance, they require large amounts of labeled data, which might be difficult to obtain. Additionally, most machine learning algorithms are not capable of domain adaptation, i.e., after being trained on a specific dataset, they are not general enough to be applied to other related data distributions. And, finally, many of the models inferred by this algorithms are uninterpretable. To overcome these limitations, we propose a new flow-based classifier, called Energy-based Flow Classifier (EFC). This anomaly-based clas- sifier uses inverse statistics to infer a statistical model based on labeled benign examples. We show that EFC is capable of accurately performing a one-class flow classification and is more adaptable to new domains than classical machine learning algorithms. Given the positive results obtained on three different datasets (CIDDS-001, CICIDS17 and CICD- DoS19), we consider EFC to be a promising algorithm to perform robust flow-based traffic classification
    corecore